1. 16.4 朴素贝叶斯算法总结

1.1. 1.朴素贝叶斯优缺点

优点：
- 朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率
- 对缺失数据不太敏感，算法也比较简单，常用于文本分类
- 分类准确度高，速度快
缺点：
- 由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好
- 需要计算先验概率，而先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳；

1.2. 2.朴素贝叶斯内容汇总

1.2.1. 2.1 NB的原理

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的待分类项x，通过学习到的模型计算后验概率分布，
即：在此项出现的条件下各个目标类别出现的概率，将后验概率最大的类作为x所属的类别。

1.2.2. 2.2 朴素贝叶斯朴素在哪里？

在计算条件概率分布P(X=x∣Y=c_k)时，NB引入了一个很强的条件独立假设，即，当Y确定时，X的各个特征分量取值之间相互独立。

1.2.3. 2.3 为什么引入条件独立性假设？

为了避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题。

假设条件概率分为

1.2.4. 2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办？

解决这一问题的方法是采用贝叶斯估计。

简单来说，引入λ，

当λ=0时，就是普通的极大似然估计；
当λ=1时称为拉普拉斯平滑。

1.2.5. 2.5 为什么属性独立性假设在实际情况中很难成立，但朴素贝叶斯仍能取得较好的效果?

人们在使用分类器之前，首先做的第一步（也是最重要的一步）往往是特征选择，这个过程的目的就是为了排除特征之间的共线性、选择相对较为独立的特征；
对于分类任务来说，只要各类别的条件概率排序正确，无需精准概率值就可以得出正确分类；
如果属性间依赖对所有类别影响相同，或依赖关系的影响能相互抵消，则属性条件独立性假设在降低计算复杂度的同时不会对性能产生负面影响。

1.2.6. 2.6 朴素贝叶斯与LR的区别？

2.6.1 简单说明

区别一：
- 朴素贝叶斯是生成模型，
  - 根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y)，
  - 进而求出联合分布概率P(XY),
  - 最后利用贝叶斯定理求解P(Y|X)，
- 而LR是判别模型，
  - 根据极大化对数似然函数直接求出条件概率P(Y|X)；
区别二：
- 朴素贝叶斯是基于很强的条件独立假设（在已知分类Y的条件下，各个特征变量取值是相互独立的），
- 而LR则对此没有要求；
区别三：
- 朴素贝叶斯适用于数据集少的情景，
- 而LR适用于大规模数据集。

补充知识点：

从概率框架的角度来理解机器学习；主要有两种策略：

第一种：给定 x，可通过直接建模 P(c |x) 来预测 c，这样得到的是"判别式模型" (discriminative models)；

第二种：也可先对联合概率分布 P(x,c) 建模，然后再由此获得 P(c |x)，这样得到的是"生成式模型" (generative models) ;

显然，前面介绍的逻辑回归、决策树、都可归入判别式模型的范畴，还有后面学到的BP神经网络支持向量机等；

对生成式模型来说，必然需要考虑

2.6.2 进一步说明

前者是生成式模型，后者是判别式模型，二者的区别就是生成式模型与判别式模型的区别。

首先，Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例，计算联合概率，进而求出后验概率。也就是说，它尝试去找到底这个数据是怎么生成的（产生的），然后再进行分类。哪个类别最有可能产生这个信号，就属于那个类别。
- 优点：样本容量增加时，收敛更快；隐变量存在时也可适用。
- 缺点：时间长；需要样本多；浪费计算资源
相比之下，Logistic回归不关心样本中类别的比例及类别下出现特征的概率，它直接给出预测模型的式子。设每个特征都有一个权重，训练样本数据更新权重w，得出最终表达式。
- 优点：
  - 直接预测往往准确率更高；
  - 简化问题；
  - 可以反应数据的分布情况，类别的差异特征；
  - 适用于较多类别的识别。
- 缺点
  - 收敛慢；
  - 不适用于有隐变量的情况。

16.4 朴素贝叶斯算法总结